PRÁCTICA MACHINE LEARNING: ANÁLISIS DE SINIESTRALIDAD

CASO CANADA TRAFFIC COLLISION

image.png

Antonio Bartolomé Redondo

Daniel Buendía Ureña

OBJETIVO DEL TRABAJO

Somos una aseguradora que opera en el mercado europeo y tiene pensado llevar a cabo un proceso de internacionalización a través de la adquisición de una aseguradora canadiense como filial. El consejo de administración, con el objetivo de evaluar esta operación, ha solicitado al departamento de Data Science que realice un estudio y una posterior modelización de los accidentes acaecidos en el país entre 1999 y 2014 con el objetivo de determinar su grado de mortalidad.

Para ello, el equipo de Data Science va a utilizar los datos recogidos en el siguiente enlace base de datos. La base de datos contiene los datos de colisiones de accidentes de tráfico en Canadá de 1999 a 2014, proporcionados por Transport Canada. Este conjunto de datos ofrece diversas características, como la hora del día, si hubo o no víctimas mortales, el sexo del conductor, etc. Los códigos de las diferentes categorías se detallarán a continuación en el diccionario de datos.

DICCIONARIO DE DATOS

image.png

image.png

image.png

image.png

image.png

ANÁLISIS EXPLORATORIO DE LOS DATOS (EDA)

00. PRE TRATAMIENTO DE LOS DATOS

Debido a la codificación en la que se entregan los datos, el primer paso será definir a qué tipo corresponde cada una de las variables y asignar los valores indeterminados (UU, XX, ...)

01. REPRESENTACIÓN GRÁFICA DEL DATASET

Como se puede observar en el gráfico, la variable objetivo está muy desbalanceada en la muestra siendo mayoritarios los accidentes (98%) que no causan ninguna fatalidad, mientras que en el restante 2% sí existió al menos un fallecido.

Análisis de las variables más significativas:

02. DETECCIÓN Y ANÁLISIS DE OUTLIERS Y VALORES NULOS

Outliers

Para detectar los valores atípicos de las variables numéricas, tras el análisis gráfico anterior, se van a calcular como aquellos valores que excedan el valor medio más menos tres veces la desviación típica, ya que en casi todas las variables se perdería mucha información si se tomaran los límites máximo y mínimo del gráfico de cajas anteriormente representado.

Tras el análisis, se considerarán como outliers:

Estos valores se tratarán en función de la variable a la que pertenecen, de tal forma que se anulen a la hora de agrupar el dataset por accidente, ya que no son capaces de discriminar a la variable objetivo. Es decir, en el caso de C_VEHS se les asignará el valor 0 y en el caso de V_YEAR se les asignará la media del resto de valores.

Para el caso de V_YEAR, los outliers se considerarán como NA y se tratarán posteriormente de manera conjunta bajo la misma estarategia de imputación

Valores nulos

En primer lugar, se deberá analizar qué cantidad de nulos tiene cada variable, así como su representación de entre todos los registros de la misma. Además, es conveniente analizar si estos valores tienen capacidad discriminatoria de la variable objetivo o, si, por el contrario, matienen el mismo porcentaje que la distribución en la muestra.

Los NA de las distintas variables no tienen un poder discriminatorio sobre la variable objetivo significativo, ya que mantiene en todos los casos la distribución de sus valores. Además a excepeción de la variable P_SAFE y la variable V_YEAR no representan un número significativo dentro de las observaciones de las distintas variables. Por todo ello, se han decidido realizar las imputaciones de la siguiente manera:

Variable P_SAFE

Imputación NA del resto de variables categóricas

Variable V_YEAR

Imputación NA del resto de variables numéricas